Average word length | # of sentences | Source |
---|---|---|
6.97 | 11 | عدد یا شماره |
7.37 | 12 | کنجد |
7.65 | 26 | گیلکی مثلان |
7.74 | 11 | قل ناهار |
7.98 | 11 | ماوس |
8.16 | 37 | جهانگیر سرتیپ پور |
8.26 | 26 | فخر |
8.40 | 15 | ژان پؤل سارتر |
8.50 | 13 | ملک خاتون |
8.51 | 41 | مودیران غیر بومی؟! |
8.51 | 11 | شهر ری |
8.52 | 16 | ملوان انزلی |
8.52 | 34 | مورغ عشق |
8.53 | 17 | گیلکی تقویم |
8.58 | 15 | سپیدرود خط نصف انهار گیلان |
8.59 | 14 | گيلکی ويکيپديا مئن عوضوا بيد |
8.59 | 78 | غلامحسین امیر خانی |
8.59 | 19 | ولی الله اردشیری |
8.59 | 25 | گیلکی اصطلاحان |
8.60 | 10 | وهن آباد |
8.60 | 11 | دردشتی |
8.69 | 22 | ويکیپديا:بحث (خودآموج) |
8.73 | 13 | امير |
8.76 | 18 | گالش |
8.77 | 10 | انزلی |
8.79 | 56 | رشت |
8.81 | 88 | تلمبار: اوّل ِ جی تا 1581، کورچ ِ ما 26 |
8.81 | 28 | گل آقا |
8.82 | 19 | اهین زمت ( I – II –III) ساختاری تحلیل ، گیلُنه هانشره مئن |
8.82 | 28 | کارکیا |
Average word length | # of sentences | Source |
---|---|---|
13.04 | 53 | سرنخ |
10.79 | 19 | کی شی مین جیر |
10.54 | 15 | زیندیگی (شعر) |
10.37 | 21 | يؤرگن هابئرماس |
10.31 | 19 | ويکیپديا:ویکیپدیا مئن حرفهیی کار بکونیم |
10.21 | 13 | ويکیپديا:چوتو خوروم مقاله بنویسیم |
10.10 | 12 | کادوسی |
10.05 | 21 | گيلکی نيويشتن |
10.00 | 15 | مأمد امینی لاهیجی |
9.94 | 12 | درخاست مدیریتئبه |
9.89 | 11 | عبدورّزاق لاهیجی |
9.87 | 14 | ایران |
9.87 | 11 | سیستم عامیل |
9.83 | 13 | درگاه:مازندران |
9.78 | 10 | روستای قاضیان |
9.78 | 12 | تئران پارک لاله |
9.76 | 53 | فریدون پوررضا |
9.70 | 37 | احمد آشورپور |
9.68 | 35 | بوکسیت |
9.65 | 23 | دام |
9.64 | 12 | لواسان |
9.59 | 10 | بهارستان میدان |
9.55 | 24 | ورگ |
9.55 | 11 | حسن ضیاظریفی |
9.54 | 23 | ويکیپديا:شمهره ياد دبی (خودآموج) |
9.50 | 28 | لاجان |
9.49 | 14 | داستان گیلکی |
9.47 | 14 | شاهین نجفی |
9.45 | 13 | شفت |
9.45 | 29 | گتˇولگˇ گبˇ تلمبار: ۱۵۸۱، شریر ما ۷ تا ۱۵۸۲ اریه ما ۱ |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words